查看原文
其他

面向语言工程的现代汉语词类体系与词性标注研究

语言科学 2022-07-15
汉语词的研究无论对于语言本体研究,还是对于语言工程实践不仅是一个重点,更是一个难点。重点是因为词这一级语言单位负载了稳定的意义,在语言交际中可以独立运用,把词的使用规律研究清楚,对于整个语句的组织、生成、理解、处理都有重要意义。难点是因为汉语的词研究面临的困难比印欧语等形态丰富的语言都要多,汉语首先遇到的是词的定界问题,如何划分词与语素、词与词组的界限是较为困难的事情,词的单位不清楚,分类对象就不明确,分类工作就难以顺利进行;其次,汉语缺乏形态特征和形态变化,难以从词形本身为词找到分类依据;此外,汉语词的使用灵活,尤其是大部分实词可以承担多种句法功能,能较为自由地占据不同句法位置,且在不同句法位置上其形态不发生变化,这更加大了利用形式条件划分词类的困难。尽管困难重重,但词类问题依然吸引了近代百年以来众多语法学家的关注,并针对汉语是否存在词类、如何划分词类等问题展开一轮又一轮的热烈讨论,虽仍未取得统一的结论,但还是取得了许多可喜的研究成果,既包括理论上的创新,也包括实践中的开拓,并且其中一些研究成果已经被应用到语言教学与语言工程之中,发挥了重要作用。看到成绩的同时,也必须清醒地意识到汉语词类问题远未得到解决,尤其是当面对大规模真实文本的时候,当需要为几百万、上千万词次的语料标注上每个词例的词性的时候,当需要把面向人的词类知识转移给计算机使用时,汉语的词类问题就更加凸显出来。对于这些问题有很多先行者进行了卓有成就的开拓,例如,北京大学研制开发出《现代汉语语法信息词典》(以下简称《语法信息词典》),对八万多词条进行细致的语法属性描写,同时还为2000年的《人民日报》语料库(以下简称《人民日报》)标注了词性,语料量达到近2700万字,其工作对汉语语言信息处理产生重要影响,也为深入研究词类问题提供了重要资源。本书在这些成果基础上,对汉语词类问题进行考察,从语言工程的角度回答,汉语词类理论和词性标注存在哪些问题、造成这些问题的深层原因是什么,进而回答汉语词类的本质是什么、是否应当像英语一样标注词性、是否应当动用大量的人力物力开展大规模语料的词性标注工作等问题,并最终为汉语语言本体研究和语言资源建设提供有价值的建议和对策,以促进汉语语言信息处理工作的发展。本书的根本出发点是语言工程的需要。语言工程的工具是计算机,处理对象是真实文本,目的是分析和提取意义,满足各种应用对语言的要求,应用包括机器翻译、信息检索、自动答问、文本分类、自动摘要、信息过滤等。这样的工作十分困难、复杂,不得不分步进行,并且计算机只能应对有限个对象,当对象无限多时,就需要确定有限个基本对象,其余对象用基本对象的复合来表示。对于汉语文本来说,这种基本对象就是词。因为字的意义不确定性太大,而短语、句子、段落、篇章则是无穷的。理论上说词也是无穷的,但在数词和人名、地名、机构名各自合类的前提下,数万到数十万个词就可以或粗或精地满足一般的语言处理需求了。对于这些词,计算机需要掌握它们的知识,包括它们的意义、用法以及它们在复合结构中的作用等。这些知识也必须用有限个对象表示,这种对象就是词的属性,由属性按不同的方式可以组合成各种类别,以便机器按类处理。词的属性需要人传递给计算机,传递的方法目前大致有三种:①词的知识库,标注词的固有属性或者说静态属性;②语料库,标注词的语境属性或者说动态属性;③基于词和词属性的规则库,描述词的组合规律,说明如何由组合关系排歧,如何从词和词的各自属性获得组合之后构成的复合结构的属性。第一种知识主要靠人为获取和加工。第二种知识也是靠人为取得,但计算机可以辅助人做许多工作,比如人标注较小的语料库,计算机“学习”后标注较大的语料库,人再校对修改。第三种知识有相当一部分可以让计算机从语料库中自动获取。计算机从语料库中获取的知识中有相当一部分是人无法直接通过规则传递给计算机的,因为这些知识太微细且数量庞大,超出了人的归纳能力。但是,也有一些知识是计算机难以从语料库中自动获取的,因为它们太宏观,超出了计算机的归纳能力。在语言工程中,比较自然的方法是首先对词例进行属性标注,以此为基础再进行后续的分析理解。这样分阶段地处理可以降低处理难度,但也带来一个重要问题,即如果词例的属性标注体系不当或者标注不准确,就会对后面的工作带来重大影响。显然标注体系带来的影响是根本性的,即使标注体系合理有效,标注精度不够高也会非常麻烦。假如词例标注正确率为95%,即平均每20个词错标1个,又假定平均句长是10个词,于是平均每两句又有一句发生词例标注错误,这一句在后续的处理中很难再被处理正确,从而以句子为单位的整体处理正确率最高不会超过50%。这就是从语言工程的角度要对词的属性体系和词性标注给予重点关注的原因。此外,从语言资源建设的角度看,当前我们国家和一些相关机构都在大规模地开展语料库的加工和建设,而通常语料库建设的一个重要内容就是进行词性标注,因此投入大量的人力、物力、财力对大规模语料标注词性。这样的工作在语料库建设初期是有意义的,因为通过标注实践能够更好地帮助认识汉语词类问题的特点,为更深入地研究提供较为丰富的研究资源,但当这样的工作进行到一定阶段,达到一定规模的时候,需要暂停一下,客观地从汉语自身实际来考察汉语的词类体系和词性标注问题,回答汉语在词类问题上有什么独特之处、如何看待汉语的这些特点、汉语是否能够和需要像英语等形态丰富的语言那样标注词性等问题。通过这些理论层面的思考来更好地把握汉语词的特点,开展适合汉语特点、满足汉语语言信息处理需求的语言加工工作,更好地指导汉语语言资源建设工作,避免资源浪费。在词一级的语言处理工作中,除了建立较为科学合理的词的属性体系外,另外一项重要工作就是要实现词的属性自动标注,开展标注模型和标注算法的研究。模型和算法研究是语言工程区别于语言本体研究的重要方面,使得语言工程不仅要关注典型词的属性特征,还要关心非典型词的属性特征,不仅要在理论上能够自圆其说,还要在实践中得到落实和检验。词语属性的标注工作在工程实践上一般有两个步骤:第一步是要以一定的标注理论为指导,制定较为明确合理的标注规范,以机器为辅助,人工实现对较大规模语料的标注加工工作;第二步是以标注语料作为训练语料,开发或应用某种适合的机器学习方法,训练出拟合效果较好的标注模型,形成自动标注工具,高效率、高准确性地完成自动标注任务。在这项工作中,语言规律研究与语言任务二者有机地结合成一体,互相影响,互相促进。基于以上考虑,本书选择了汉语的词类体系和词性自动标注作为研究对象,希望能够在较大规模的调查分析基础上对汉语词类问题有一个更加深入的认识,同时也希望能够通过自动标注的实践促进对汉语词类本质的认识,而对汉语词类本质的深入探究也会促进自动标注模型和算法的改进,提高标注模型的标注效率和准确性。


本文摘自邢富坤著《面向语言工程的现代汉语词类体系与词性标注研究》,科学出版社出版。

             

 

作者: 邢富坤   著

书号:9787030714954

定价:98元(平)

出版社:科学出版社


作者简介

邢富坤:博士、教授,研究方向为语料库语言学、语言信息处理、语言教学技术,主持国家社科基金项目2项,在《当代语言学》《现代外语》《解放军外国语学院学报》《中文信息学报》等核心期刊发表论文20余篇。

READING本书目录


  • 第1章 绪论 1
    1.1 研究背景 1
    1.2 研究目标与内容 4
    1.3 本书结构 5
    第2章 词类研究概述 6
    2.1 国际上词类研究概述 6
    2.2 汉语词类研究概述 11
    2.3 面向语言信息处理的汉语词类研究 13
    第3章 词性标注研究概述 16
    3.1 词性标注与语料库加工 16
    3.2 主要的英语语料库介绍 19
    3.3 主要的汉语语料库介绍 20
    3.4 有关汉语词性标注的评测活动 22
    3.5 语言工程中的自动标注方法研究 23
    第4章 词类属性调查 28
    4.1 调查目的及方法 28
    4.2 词类及其兼类的总体分布 30
    4.3 主要词类属性调查 39
    4.4 另类词分布统计 45
    第5章 词性标注调查 47
    5.1 相关术语及定义 47
    5.2 语料标注调查的必要性 50
    5.3 词性标注的调查原则 52
    5.4 调查目的及方法 58
    5.5 标注语料的总体情况 61
    5.6实词兼类调查 62
    5.7 虚词兼类调查 97
    5.8语料标注调查结果分析 107
    第6章 汉语词类与词性标注问题分析 115
    6.1汉语词类体系的分析 115
    6.2 汉语词性标注分析 143
    6.3 汉语词类问题的总结及相关对策 154
    第7章 英汉语词类问题的比较 159
    7.1 句法约束与词类之间的关系比较 159
    7.2 词类属性与句法实现之间的比较 162
    7.3 词性标注过程的比较 163
    7.4 英汉语词类特点的总结 166
    第8章 COV模型与词性标注 167
    8.1 标注模型概述 168
    8.2 COV模型的形式化描述及与HMM模型的对比分析 170
    8.3 参数估计及稀疏数据处理 173
    8.4 算法描述 175
    8.5 评价方法 177
    8.6 实验设计及结果分析 177
    8.7 COV模型在英文词性标注中的应用 189
    8.8 COV模型讨论 191
    第9章 汉语词性标注体系与自动标注错误的关系分析 195
    9.1 自动标注错误原因 195
    9.2 兼类词词性调查分类 196
    9.3 主要评价指标 197
    9.4 实验结果及分析 198
    9.5 主要结论和启示 205
    第10章 总结与展望 207
    10.1 主要工作 207
    10.2 未来展望 208
    参考文献 210
    附录词性标注调查词(词频)表 216



长按二维码

即刻购书哦

科学出版社




1.相关阅读

跨语言视角下的汉语假设句研究
认知语言学的研究方法
官群:具身语言的理论基础
语言文学研究成果速递
语言类型学视域下的领属范畴研究
非习语程式语与学术写作语言产出研究
基于语料库的汉英翻译语体研究
汉语广义遭受结构研究
起始年龄和语言学能与二语学习成效的关系研究

2.学术讲座

语料库与跨学科研究系列讲座

陕西师范大学文学院系列讲座

语言学跨学科研究大讲坛

“语言数据科学与应用”系列讲座

BISU高翻研究生学术大讲堂

中山大学国际翻译学院系列讲座

福建师范大学外国语学院系列讲座

2022语言文化研究国际论坛

南京大学校庆系列讲座

国社科后期资助项目申报的两个维度:申报书的设计与书稿的打磨


3.学术会议
第三届华中大语言论坛
中国英汉语比较研究会教育语言学专业委员会第十三届年会
第二届当代语言学新视野国际研讨会
第四届中国社会语言学高端(国际)论坛
第十三届中国社会语言学国际学术研讨会
第六届中国心理语言学国际研讨会
首届南疆语言生活和语言资源高端论坛
第六届中国语用学专题论坛
第十九届国际城市语言学会年会
中国语言学话语体系建设与国际传播学术研讨会
“中国语言学研究的新视野”学术论坛
第七届全国生态语言学研讨会

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存